无人驾驶飞机(UAV)跟踪对于诸如交货和农业等广泛应用具有重要意义。该领域的先前基准分析主要集中在小规模的跟踪问题上,同时忽略了数据模式的类型,目标类别和方案的多样性以及所涉及的评估协议的数量,从而极大地隐藏了深度无人机跟踪的巨大功能。在这项工作中,我们提出了迄今为止最大的公共无人机跟踪基准Webuav-3M,以促进深度无人机跟踪器的开发和评估。 Webuav-3M在4,500个视频中包含超过330万帧,并提供223个高度多样化的目标类别。每个视频都通过有效且可扩展的半自动目标注释(SATA)管道密集注释。重要的是,要利用语言和音频的互补优势,我们通过提供自然语言规格和音频描述来丰富Webuav-3M。我们认为,这种增加将大大促进未来的研究,以探索语言功能和音频提示,用于多模式无人机跟踪。此外,构建了scenario约束(UTUSC)评估协议和七个具有挑战性的场景子测验集,以使社区能够开发,适应和评估各种类型的高级跟踪器。我们提供了43个代表性跟踪器的广泛评估和详细分析,并设想了深度无人机跟踪及其他领域的未来研究方向。数据集,工具包和基线结果可在\ url {https://github.com/983632847/webuav-3m}中获得。
translated by 谷歌翻译